Ký hiệu thay thế Quá trình quyết định Markov

The terminology and notation for MDPs are not entirely settled. There are two main streams — one focuses on maximization problems from contexts like economics, using the terms action, reward, value, and calling the discount factor β {\displaystyle \beta } or γ {\displaystyle \gamma } , while the other focuses on minimization problems from engineering and navigation, using the terms control, cost, cost-to-go, and calling the discount factor α {\displaystyle \alpha } . In addition, the notation for the transition probability varies.

Trong bài viết này
cách dùng khác
Chú giải
hành động  a {\displaystyle a} điều khiển u {\displaystyle u}
phần thưởng R {\displaystyle R} chi phí g {\displaystyle g} g {\displaystyle g} là phủ định của R {\displaystyle R}
giá trị  V {\displaystyle V} chi phí phải trả J {\displaystyle J} J {\displaystyle J} là phủ định của V {\displaystyle V}
nguyên tắc π {\displaystyle \pi } nguyên tắc μ {\displaystyle \mu }
hệ số chiết khấu   γ   {\displaystyle \ \gamma \ } hệ số chiết khấu α {\displaystyle \alpha }
Xác suất chuyển tiếp  P a ( s , s ′ ) {\displaystyle P_{a}(s,s')} Xác suất chuyển tiếp p s s ′ ( a ) {\displaystyle p_{ss'}(a)}

Ngoài ra, xác suất chuyển tiếp đôi khi được viết dưới dạng  P r ( s , a , s ′ ) {\displaystyle Pr(s,a,s')} , P r ( s ′ | s , a ) {\displaystyle Pr(s'|s,a)}  hoặc, hiếm hoi hơn, p s ′ s ( a ) . {\displaystyle p_{s's}(a).}

Tài liệu tham khảo

WikiPedia: Quá trình quyết định Markov http://www.cs.ualberta.ca/~sutton/book/ebook http://www.cs.uwaterloo.ca/~jhoey/research/spudd/i... http://www.springer.com/mathematics/applications/b... http://www.iumj.indiana.edu/IUMJ/FULLTEXT/1957/6/5... http://www.ai.mit.edu/~murphyk/Software/MDP/mdp.ht... http://www.eecs.umich.edu/~baveja/ http://www.eecs.umich.edu/~baveja/Papers/Thesis.ps... //dx.doi.org/10.1287%2Fmoor.22.1.222 http://www.jstor.org/stable/3690147 http://ncatlab.org/nlab/show/Giry+monad